分发班次的稳健性对于部署现实世界中的机器学习模型至关重要。尽管如此必要的,但在定义导致这些变化的潜在机制以及评估跨多个不同的分发班次的稳健性的潜在机制很少。为此,我们介绍了一种框架,可实现各种分布换档的细粒度分析。我们通过评估在合成和现实世界数据集中分为五个类别的19个不同的方法来提供对当前最先进的方法的整体分析。总的来说,我们训练超过85架模型。我们的实验框架可以很容易地扩展到包括新方法,班次和数据集。我们发现,与以前的工作〜\ citep {gulrajani20}不同,该进度已经通过标准的ERM基线进行;特别是,在许多情况下,预先训练和增强(学习或启发式)提供了大的收益。但是,最好的方法在不同的数据集和班次上不一致。
translated by 谷歌翻译